Warning: file_put_contents(aCache/aDaily/post/opendatascience/-2278-2279-2280-2278-): Failed to open stream: No space left on device in /var/www/tg-me/post.php on line 50
Data Science by ODS.ai 🦜 | Telegram Webview: opendatascience/2279 -
Telegram Group & Telegram Channel
Forwarded from Russian OSINT
🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.

Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.

Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2279
Create:
Last Update:

🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.

Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.

Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.

@Russian_OSINT

BY Data Science by ODS.ai 🦜






Share with your friend now:
tg-me.com/opendatascience/2279

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Unlimited members in Telegram group now

Telegram has made it easier for its users to communicate, as it has introduced a feature that allows more than 200,000 users in a group chat. However, if the users in a group chat move past 200,000, it changes into "Broadcast Group", but the feature comes with a restriction. Groups with close to 200k members can be converted to a Broadcast Group that allows unlimited members. Only admins can post in Broadcast Groups, but everyone can read along and participate in group Voice Chats," Telegram added.

The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.

Data Science by ODS ai 🦜 from us


Telegram Data Science by ODS.ai 🦜
FROM USA